Stratégies d'échantillonnage pour l'apprentissage par renforcement batch

نویسندگان

  • Raphaël Fonteneau
  • Susan A. Murphy
  • Louis Wehenkel
  • Damien Ernst
چکیده

RÉSUMÉ. Cet article présente deux stratégies d’échantillonnage dans le contexte de l’apprentissage par renforcement en mode “batch”. La première stratégie repose sur l’idée que les expériences susceptibles de mener à une modification de la politique de décision courante sont particulièrement informatives. Etant donné a priori un algorithme d’inférence de politiques de décision ainsi qu’un modèle prédictif du système, une expérience est réalisée si, étant donné le modèle prédictif, cette expérience mène à l’apprentissage d’une politique de décision différente. La deuxième stratégie exploite des résultats récemment publiés pour calculer des bornes sur le retour des politiques de décision de manière à sélectionner des expériences améliorant la précision des bornes afin de discriminer les politiques non-optimales. Ces deux stratégies sont illustrées sur des problèmes élémentaires et les résultats obtenus sont prometteurs.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Classification structurée pour l'apprentissage par renforcement inverse

Résumé : Cette contribution traite du problème de l’apprentissage par imitation par le biais de l’apprentissage par renforcement inverse (ARI). Dans ce contexte, un expert accomplit une tâche qu’un agent artificiel doit essayer de reproduire. L’ARI part du postulat que l’expert optimise avec succès une fonction de récompense ; le problème consiste à deviner cette fonction à partir de traces du ...

متن کامل

Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct

Résumé : La résolution de problèmes à états et actions continus par l’optimisation de politiques paramétriques est un sujet d’intérêt récent en apprentissage par renforcement. L’algorithme PI est un exemple de cette approche, qui bénéficie de fondements mathématiques solides tirés de la commande stochastique optimale et des outils de la théorie de l’estimation statistique. Dans cet article, nou...

متن کامل

Stratégies de supervision pour l'apprentissage en-ligne d'un classifieur évolutif de commandes gestuelles

RÉSUMÉ. Les interfaces homme-machine tactiles permettent de nouveaux modes d’interaction comme l’utilisation de commandes gestuelles. Afin de mémoriser facilement plus d’une douzaine de commandes, il est important de pouvoir les personnaliser. Le classifieur utilisé pour reconnaitre les symboles dessinés doit donc être personnalisable, pouvoir s’initialiser à partir de très peu de données, et é...

متن کامل

Filtrage bayésien de la récompense

Résumé : Une large variété de schémas d’approximation de la fonction de valeur a été appliquée à l’apprentissage par renforcement. Cependant, les approches par filtrage bayésien, qui se sont pourtant montrées efficaces dans d’autres domaines comme l’apprentissage de paramètres pour les réseaux neuronaux, ont été peu étudiées jusqu’à présent. Cette contribution introduit un cadre de travail géné...

متن کامل

Apprentissage par imitation dans un cadre batch , off - policy et sans modèle

Résumé : Ce papier traite le problème de l’apprentissage par imitation, c’est à dire la résolution du problème du contrôle optimal à partir de données tirées de démonstrations d’un expert. L’apprentissage par renforcement inverse (IRL) propose un cadre efficace pour résoudre ce problème. En se basant sur l’hypothèse que l’expert maximise une fonction de valeur, l’IRL essaie d’apprendre la récom...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Revue d'Intelligence Artificielle

دوره 27  شماره 

صفحات  -

تاریخ انتشار 2013